15 research outputs found

    Predictive modelling: variable selection and classification efficiencies..

    Get PDF
    Op de dag van vandaag worden er enorm veel gegevens gedurende studies over economische, medische, biochemische, en vele andere fenomenen. Voorbeelden van zulke datasets zijn bijvoorbeeld gegevens over klanten voor het bepalen van hun kredietrisico (voor banken), hun risico op ongevallen (voor verzekeringsmaatschappijen). Andere voorbeelden zijn onder andere epidemiologische studies, en studies naar genetische relevantie. Ook gebeurt het steeds meer dat deze datasets veel verschillende variabelen bevatten, waarvan de meeste waarschijnlijk niets te maken hebben met het onderzochte fenomeen. Daarom zijn er technieken nodig die een groep van variabelen kunnen selecteren, liefst zo klein mogelijk, of een zo eenvoudig mogelijk model, dat toch een goed model is voor het onderzochte fenomeen. Daartoe zijn er al verschillende modelselectiecriteria ontwikkeld, zoals Akaikes Informatiecriterium (AIC), het Bayesiaans of Schwarz Informatiecriterium (BIC/SIC), het Cp criterium van Mallows, and meer recent, het Focussed Informatiecriterium (FIC). De eerste drie criteria in deze lijst laten toe van één bepaald model te kiezen om het onderzochte fenomeen te verklaren, waarvoor dit model ook gebruikt zal worden. Hoewel deze criteria doorgaans een model kiezen dat behoorlijk werkt, is het niet noodzakelijk optimaal voor het uiteindelijke doel, bijvoorbeeld om voorspellingen te maken. Het laatste criterium echter, het FIC, heeft dit probleem niet en zal een model kiezen dat op maat gemaakt is voor wat de onderzoeker voor ogen heeft, waardoor het gekozen model mogelijk beter presteert voor dat bepaald doel. In het eerste hoofdstuk van deze thesis bekijken we het probleem van doelgerichte variabelenselectie in het logistisch regressiemodel. Hier zal het FIC verschillende modellen kiezen naargelang de observatie waarover de voorspelling wordt gemaakt, wat tot nauwkeurigere voorspellingen zal leiden. Dit is vooral interessant voor zakenmanagers als ze willen voorspellen dat een bepaalde investering zal renderen of niet. Een andere toepassing bevindt zich in de medische wereld, waar het van levensbelang is dat patiënten een correcte diagnose krijgen dat ze al dan niet een bepaalde ziekte hebben. De gewone FIC schat de gemiddelde kwadratische fout van de schatter van de parameter die ons interesseert, waarbij we hier de score van de te voorspellen observatie kiezen. In dit hoofdstuk hebben we een algemenere versie van FIC voorgesteld met een algemene risicomaat gebaseerd op de Lp-fout. De hoofdverwezenlijking hier is het opstellen van een FIC waarbij de kans op een foute voorspelling als risicomaat wordt gebruikt, vermits we een ja/nee uitkomst willen voorspellen. De voordelen van het gebruik van een informatiecriterium dat zijn model kiest afhankelijk van de te voorspellen observatie werden aangetoond aan de hand van een simulatiestudie en een toepassing op een medische studie. In het tweede hoofdstuk van de thesis passen we het FIC toe op het kiezen van de autoregressie (AR) orde van een stationaire tijdreeks. Autoregressieve tijdreeksen worden in economie vaak gebruikt om een fenomeen zoals wisselkoersen of werkloosheidsgraad over de tijd te modelleren. Deze modellen worden dan gebruikt om dit fenomeen te voorspellen voor de (nabije) toekomst. Deze voorspellingen moeten zo nauwkeurig mogelijk zijn, dit in het bijzonder voor macro-economische fenomenen, zodanig dat de beleidsmensen hierop kunnen vertrouwen voor het nemen van goede beslissingen. Het focussed informatiecriterium was oorspronkelijk gedefinieerd voor een vaste groep van modellen, waarbij het grootste beschouwd model niet verandert als er observaties bijkomen. In dit hoofdstuk ontwikkelden we het FIC verder zodanig dat dit criterium kan gebruikt worden in de situatie waar de maximale AR orde van de beschouwde modellen naar oneindig gaat als de lengte van de tijdreeks stijgt. We hebben dit resultaat voor twee redenen nodig. Eerst en vooral is het aantal mogelijke variabelen theoretisch oneindig als we werken met autoregressieve modellen. Een belangrijkere reden is dat we de asymptotische efficiëntie van FIC wensen te onderzoeken, en dit willen vergelijken met AIC voor modelorde selectie. We hebben dit onderzocht aan de hand van een uitgebreide simulatiestudie, waarbij we zowel het geval van twee tijdreeksen hebben onderzocht, waar AIC asymptotisch de meest nauwkeurige modellen selecteert, als het geval van één enkele tijdreeks, waar AIC deze eigenschap ook heeft. Gedurende deze studie hebben we gemerkt dat de prestaties van de modellen geselecteerd door FIC zeer dicht liggen bij de prestaties van de modellen geselecteerd door AIC en dat dit verschil kleiner wordt als de lengte van de tijreeks stijgt. Het FIC kan ook gebruikt worden om het beste model te kiezen voor het schatten van de impulsresponsfunctie voor een bepaalde lag. In dit geval zien we dat de prestaties van FIC en AIC sterk variëren naargelang de parameters van het echte, datagenererend model veranderen, en dat geen van beide uniform beter is dan het andere. Ook hebben we aangetoond dat FIC eenvoudig kan worden toegepast voor moeilijkere variabelenselectie problemen voor tijdreeksen, zoals het tegelijkertijd selecteren van de regressievariabelen en de AR orde van de residuen. De criteria in de voorgaande paragrafen hebben één groot nadeel. Omdat ze gebaseerd zijn op de likelihood van de gegevens, kunnen ze niet gebruikt worden als het aantal variabelen groter is dan het aantal observaties. Daarom hebben we eerst een alternatief voor maximum likelihood schatters nodig, zodanig dat we de parameters van het model kunnen schatten. De Support Vector Machine (SVM) laat binaire classificatie toe als het aantal variabelen (veel) groter is dan het aantal observaties. Het is echter nog altijd aan te raden om de dimensie van de ruimte van de observaties te verkleinen, omdat dit de voorspellende prestaties van het model kan vergroten. Er zijn reeds verschillende technieken om variabelenselectie te doen voor de SVM, maar weinigen ervan werken met informatiecriteria. Technieken die toch op criteria zijn gebaseerd zijn bijvoorbeeld deze gebaseerd op de crossvalidatie voorspellingsfout, of het Kernel Regularisatie Informatiecriterium (KRIC). In het derde hoofdstuk van deze thesis hebben we twee nieuwe informatiecriteria ontwikkeld (SVMICa en SVMICb) die voor variabelenselectie in SVMs kunnen worden gebruikt. Deze nieuwe criteria hebben als voordeel dat ze niet zo veel extra berekeningen vragen als de bestaande criteria, en dat ze dus sneller te berekenen zijn. Ook hebben we het SVMICa gekoppeld aan het KRIC, als een benadering onder bepaalde voorwaarden. Daarna hebben we een uitgebreide simulatiestudie uitgevoerd waarin we de eigenschappen van SVMICa/b hebben onderzocht, en we hebben gezien dat de modellen geselecteerd door deze criteria degelijke voorspellende eigenschappen hebben. Daarenboven blijkt SVMICb de asymptotische consistentie eigenschap te hebben. Deze goede eigenschappen werden ook bevestigd gedurende een test op een aantal echte datasets. Een andere kwestie die toch zeer belangrijk is in het voorspellend modelleren is, is de vraag hoe efficiënt een schattingsmethode voor een bepaald model is. Doorgaans moet je een keuze maken tussen efficiëntie van de methode, en hoe algemeen toepasbaar of hoe robuust die methode is. Het onderzoeken van deze efficiënties laat ons dus toe te zien welke prijs (in termen van efficiëntie) je betaalt voor het gebruik van algemenere en/of robuustere schattingsmethoden. In het laatste hoofdstuk van de thesis hebben we de classificatie-efficiëntie van een groep beslissingsregels, gekend als de Convex Risico Minimalisatie (CRM) regels, onderzocht. Deze methoden zijn een zeer flexibele groep van schattings-technieken voor het schatten van de beslissingfunctie in binaire classificatie, in de zin dat deze eenvoudig kunnen aangewend worden voor niet-lineaire problemen. We hebben de CRM technieken vergeleken met de bekende lineaire discriminatieregel van Fisher, dit in het geval van twee normaalverdeelde populaties met gelijke variantie. In deze situatie weten we dat de regel van Fisher efficiënt is. Om die classificatie-efficiënties te bereken, maken we gebruik van invloedsfuncties. Eerst en vooral hebben we een theoretische uitdrukking gevonden voor deze invloedsfuncties voor Fisher-consistente CRM regels, regels die de laagst mogelijke voorspellingsfout hebben. Ook hebben we voldoende condities opgesteld waarvoor zulke Convex Risico Minimalisatie methodes Fisher-consistent zijn. Daarna hebben we een gedetailleerde analyse gedaan voor een aantal CRM methodes, en we hebben gevonden dat voor redelijk gebalanceerde, slecht scheidbare populaties, de CRM methodes redelijk efficiënt zijn, met efficiëntie boven de 50%, terwijl ze toch veel flexibeler zijn dan de efficiënte regel van Fisher.

    Prediction focussed model selection for autoregressive models.

    Get PDF
    In order to make predictions of future values of a time series, one needs to specify a forecasting model. A popular choice is an autoregressive time series model, where the order of the model is chosen by an information criterion. We propose an extension of the Focussed Information Criterion (FIC) for model-order selection with focus on a high predictive accuracy (i.e.themeansquaredforecasterrorislow). We obtain theoretical results and illustrate in a simulation study that this FIC can outperform classical order selection criteria in the setting with one series to predict and a different series for parameter estimation. We also demonstrate, via a simulation study and some real data examples, that in the practical setting of only one available time series, the performance of the FIC is comparable to the performance of other information criteria.Choice; Criteria; Data; Focussed information criterion; Forecasting; Information; Model; Model selection; Models; Order; Performance; Prediction; Predictions; Selection; Simulation; Studies; Time; Time series; Value;

    Variable selection for logistic regression using a prediction focussed information criterion.

    Get PDF
    In biostatistical practice, it is common to use information criteria as a guide for model selection. We propose new versions of the Focussed Information Criterion (FIC) for variable selection in logistic regression. The FIC gives, depending on the quantity to be estimated, possibly different sets of selected variables. The standard version of the FIC measures the Mean Squared Error (MSE) of the estimator of the quantity of interest in the selected model. In this paper we propose more general versions of the FIC, allowing other risk measures such as one based on Lp-error. When prediction of an event is important, as is often the case in medical applications, we construct an FIC using the error rate as a natural risk measure. The advantages of using an information criterion which depends on both the quantity of interest and the selected risk measure are illustrated by means of a simulation study and application to a study on diabetic retinopathy.Advantages; Applications; Error rate; Criteria; Focussed information criterion; Forward selection;

    Predictive modelling: variable selection and classification efficiencies.

    No full text
    Op de dag van vandaag worden er enorm veel gegevens gedurende studies over economische, medische, biochemische, en vele andere fenomenen. Voorbeelden van zulke datasets zijn bijvoorbeeld gegevens over klanten voor het bepalen van hun kredietrisico (voor banken), hun risico op ongevallen (voor verzekeringsmaatschappijen). Andere voorbeelden zijn onder andere epidemiologische studies, en studies naar genetische relevantie. Ook gebeurt het steeds meer dat deze datasets veel verschillende variabelen bevatten, waarvan de meeste waarschijnlijk niets te maken hebben met het onderzochte fenomeen. Daarom zijn er technieken nodig die een groep van variabelen kunnen selecteren, liefst zo klein mogelijk, of een zo eenvoudig mogelijk model, dat toch een goed model is voor het onderzochte fenomeen. Daartoe zijn er al verschillende modelselectiecriteria ontwikkeld, zoals Akaike s Informatiecriterium (AIC), het Bayesiaans of Schwarz Informatiecriterium (BIC/SIC), het Cp criterium van Mallows, and meer recent, het Focussed Informatiecriterium (FIC). De eerste drie criteria in deze lijst laten toe van één bepaald model te kiezen om het onderzochte fenomeen te verklaren, waarvoor dit model ook gebruikt zal worden. Hoewel deze criteria doorgaans een model kiezen dat behoorlijk werkt, is het niet noodzakelijk optimaal voor het uiteindelijke doel, bijvoorbeeld om voorspellingen te maken. Het laatste criterium echter, het FIC, heeft dit probleem niet en zal een model kiezen dat op maat gemaakt is voor wat de onderzoeker voor ogen heeft, waardoor het gekozen model mogelijk beter presteert voor dat bepaald doel. In het eerste hoofdstuk van deze thesis bekijken we het probleem van doelgerichte variabelenselectie in het logistisch regressiemodel. Hier zal het FIC verschillende modellen kiezen naargelang de observatie waarover de voorspelling wordt gemaakt, wat tot nauwkeurigere voorspellingen zal leiden. Dit is vooral interessant voor zakenmanagers als ze willen voorspellen dat een bepaalde investering zal renderen of niet. Een andere toepassing bevindt zich in de medische wereld, waar het van levensbelang is dat patiënten een correcte diagnose krijgen dat ze al dan niet een bepaalde ziekte hebben. De gewone FIC schat de gemiddelde kwadratische fout van de schatter van de parameter die ons interesseert, waarbij we hier de score van de te voorspellen observatie kiezen. In dit hoofdstuk hebben we een algemenere versie van FIC voorgesteld met een algemene risicomaat gebaseerd op de Lp-fout. De hoofdverwezenlijking hier is het opstellen van een FIC waarbij de kans op een foute voorspelling als risicomaat wordt gebruikt, vermits we een ja/nee uitkomst willen voorspellen. De voordelen van het gebruik van een informatiecriterium dat zijn model kiest afhankelijk van de te voorspellen observatie werden aangetoond aan de hand van een simulatiestudie en een toepassing op een medische studie. In het tweede hoofdstuk van de thesis passen we het FIC toe op het kiezen van de autoregressie (AR) orde van een stationaire tijdreeks. Autoregressieve tijdreeksen worden in economie vaak gebruikt om een fenomeen zoals wisselkoersen of werkloosheidsgraad over de tijd te modelleren. Deze modellen worden dan gebruikt om dit fenomeen te voorspellen voor de (nabije) toekomst. Deze voorspellingen moeten zo nauwkeurig mogelijk zijn, dit in het bijzonder voor macro-economische fenomenen, zodanig dat de beleidsmensen hierop kunnen vertrouwen voor het nemen van goede beslissingen. Het focussed informatiecriterium was oorspronkelijk gedefinieerd voor een vaste groep van modellen, waarbij het grootste beschouwd model niet verandert als er observaties bijkomen. In dit hoofdstuk ontwikkelden we het FIC verder zodanig dat dit criterium kan gebruikt worden in de situatie waar de maximale AR orde van de beschouwde modellen naar oneindig gaat als de lengte van de tijdreeks stijgt. We hebben dit resultaat voor twee redenen nodig. Eerst en vooral is het aantal mogelijke variabelen theoretisch oneindig als we werken met autoregressieve modellen. Een belangrijkere reden is dat we de asymptotische efficiëntie van FIC wensen te onderzoeken, en dit willen vergelijken met AIC voor modelorde selectie. We hebben dit onderzocht aan de hand van een uitgebreide simulatiestudie, waarbij we zowel het geval van twee tijdreeksen hebben onderzocht, waar AIC asymptotisch de meest nauwkeurige modellen selecteert, als het geval van één enkele tijdreeks, waar AIC deze eigenschap ook heeft. Gedurende deze studie hebben we gemerkt dat de prestaties van de modellen geselecteerd door FIC zeer dicht liggen bij de prestaties van de modellen geselecteerd door AIC en dat dit verschil kleiner wordt als de lengte van de tijreeks stijgt. Het FIC kan ook gebruikt worden om het beste model te kiezen voor het schatten van de impulsresponsfunctie voor een bepaalde lag. In dit geval zien we dat de prestaties van FIC en AIC sterk variëren naargelang de parameters van het echte, datagenererend model veranderen, en dat geen van beide uniform beter is dan het andere. Ook hebben we aangetoond dat FIC eenvoudig kan worden toegepast voor moeilijkere variabelenselectie problemen voor tijdreeksen, zoals het tegelijkertijd selecteren van de regressievariabelen en de AR orde van de residuen. De criteria in de voorgaande paragrafen hebben één groot nadeel. Omdat ze gebaseerd zijn op de likelihood van de gegevens, kunnen ze niet gebruikt worden als het aantal variabelen groter is dan het aantal observaties. Daarom hebben we eerst een alternatief voor maximum likelihood schatters nodig, zodanig dat we de parameters van het model kunnen schatten. De Support Vector Machine (SVM) laat binaire classificatie toe als het aantal variabelen (veel) groter is dan het aantal observaties. Het is echter nog altijd aan te raden om de dimensie van de ruimte van de observaties te verkleinen, omdat dit de voorspellende prestaties van het model kan vergroten. Er zijn reeds verschillende technieken om variabelenselectie te doen voor de SVM, maar weinigen ervan werken met informatiecriteria. Technieken die toch op criteria zijn gebaseerd zijn bijvoorbeeld deze gebaseerd op de crossvalidatie voorspellingsfout, of het Kernel Regularisatie Informatiecriterium (KRIC). In het derde hoofdstuk van deze thesis hebben we twee nieuwe informatiecriteria ontwikkeld (SVMICa en SVMICb) die voor variabelenselectie in SVM s kunnen worden gebruikt. Deze nieuwe criteria hebben als voordeel dat ze niet zo veel extra berekeningen vragen als de bestaande criteria, en dat ze dus sneller te berekenen zijn. Ook hebben we het SVMICa gekoppeld aan het KRIC, als een benadering onder bepaalde voorwaarden. Daarna hebben we een uitgebreide simulatiestudie uitgevoerd waarin we de eigenschappen van SVMICa/b hebben onderzocht, en we hebben gezien dat de modellen geselecteerd door deze criteria degelijke voorspellende eigenschappen hebben. Daarenboven blijkt SVMICb de asymptotische consistentie eigenschap te hebben. Deze goede eigenschappen werden ook bevestigd gedurende een test op een aantal echte datasets. Een andere kwestie die toch zeer belangrijk is in het voorspellend modelleren is, is de vraag hoe efficiënt een schattingsmethode voor een bepaald model is. Doorgaans moet je een keuze maken tussen efficiëntie van de methode, en hoe algemeen toepasbaar of hoe robuust die methode is. Het onderzoeken van deze efficiënties laat ons dus toe te zien welke prijs (in termen van efficiëntie) je betaalt voor het gebruik van algemenere en/of robuustere schattingsmethoden. In het laatste hoofdstuk van de thesis hebben we de classificatie-efficiëntie van een groep beslissingsregels, gekend als de Convex Risico Minimalisatie (CRM) regels, onderzocht. Deze methoden zijn een zeer flexibele groep van schattings-technieken voor het schatten van de beslissingfunctie in binaire classificatie, in de zin dat deze eenvoudig kunnen aangewend worden voor niet-lineaire problemen. We hebben de CRM technieken vergeleken met de bekende lineaire discriminatieregel van Fisher, dit in het geval van twee normaalverdeelde populaties met gelijke variantie. In deze situatie weten we dat de regel van Fisher efficiënt is. Om die classificatie-efficiënties te bereken, maken we gebruik van invloedsfuncties. Eerst en vooral hebben we een theoretische uitdrukking gevonden voor deze invloedsfuncties voor Fisher-consistente CRM regels, regels die de laagst mogelijke voorspellingsfout hebben. Ook hebben we voldoende condities opgesteld waarvoor zulke Convex Risico Minimalisatie methodes Fisher-consistent zijn. Daarna hebben we een gedetailleerde analyse gedaan voor een aantal CRM methodes, en we hebben gevonden dat voor redelijk gebalanceerde, slecht scheidbare populaties, de CRM methodes redelijk efficiënt zijn, met efficiëntie boven de 50%, terwijl ze toch veel flexibeler zijn dan de efficiënte regel van Fisher.status: publishe

    An information criterion for variable selection in Support Vector Machines

    No full text
    Support vector machines for classification have the advantage that the curse of dimensionality is circumvented. It has been shown that a reduction of the dimension of the input space leads to even better results. For this purpose, we propose two information criteria which can be computed directly from the definition of the support vector machine. We assess the predictive performance of the models selected by our new criteria and compare them to existing variable selection techniques in a simulation study. The simulation results show that the new criteria are competitive in terms of generalization error rate while being much easier to compute. We arrive at the same findings for comparison on some real-world benchmark data sets

    An information criterion for variable selection in Support Vector Machines

    No full text
    Using support vector machines for classification problems has the advantage that the curse of dimensionality is circumvented. However, it has been shown that even here a reduction of the dimension of the input space leads to better results. For this purpose, we propose two information criteria which can be computed directly from the definition of the support vector machine. We assess the predictive performance of the models selected by our new criteria and compare them to a few existing variable selection techniques in a simulation study. Results of this simulation study show that the new criteria are very competitive compared to the others in terms of out-of-sample error rate while being much easier to compute. When we repeat this comparison on a few real-world benchmark datasets, we arrive at the same findings.status: publishe

    Variable selection for logistic regression using a prediction-focused information criterion

    No full text
    In biostatistical practice, it is common to use information criteria as a guide for model selection. We propose new versions of the focused information criterion (FIC) for variable selection in logistic regression. The FIC gives, depending on the quantity to be estimated, possibly different sets of selected variables. The standard version of the FIC measures the mean squared error of the estimator of the quantity of interest in the selected model. In this article, we propose more general versions of the FIC, allowing other risk measures such as the one based on LP error. When prediction of an event is important, as is often the case in medical applications, we construct an FIC using the error rate as a natural risk measure. The advantages of using an information criterion which depends on both the quantity of interest and the selected risk measure are illustrated by means of a simulation study and application to a study on diabetic retinopathy.status: publishe

    Robust PARAFAC for incomplete data

    No full text
    Different methods exist to explore multiway data. In this article, we focus on the widely used PARAFAC (parallel factor analysis) model, which expresses multiway data in a more compact way without ignoring the underlying complex structure. An alternating least squares procedure is typically used to fit the PARAFAC model. It is, however, well known that least squares techniques are very sensitive to outliers, and hence, the PARAFAC model as a whole is a nonrobust method. Therefore a robust alternative, which can deal with fully observed data possibly contaminated by outlying samples, has already been proposed in literature. In this paper, we present an approach to perform PARAFAC on data that contain both outlying cases and missing elements. A simulation study shows the good performance of our methodology. In particular, we can apply our method on a dataset in which scattering is detected and replaced with missing values. This is illustrated on a real data example. © 2012 John Wiley & Sons, Ltd.status: publishe
    corecore